简单来说,llama.cpp是兼顾兼容与性能的“全能选手”,而BitNet.cpp则是专为“极限压缩”设计的“特种兵”。 这意味着你可以用16GB内存的笔记本轻松跑起100B参数的大模型,而这在llama.cpp中通常需要昂贵的专业显卡。 速度优势:得益于简化的计算逻辑(主要是加法而非乘法),BitNet.cpp在CPU上的推理速度通常是llama.cpp的2到6倍。 2.兼容性与生态:llama.cpp的全面统治模型自由:如果你需要尝试最新的开源模型(如Llama3,Qwen,DeepSeek等),llama.cpp是绝对首选。 硬件通吃:llama.cpp对GPU(CUDA/Metal/Vulkan)的支持非常成熟,能充分利用显卡加速。相比之下,BitNet.cpp目前主要优化在CPU端,对GPU的支持还在完善中。
大家好,我是 Ai 学习的老章 最近在测试 llama.cpp 这个推理引擎的表现,主要是启动 GGUF 格式的量化大模型比较方便 # 内网部署 llama.cpp,运行量化大模型 # 纯离线安装大模型推理引擎 只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。 也不要使用 Ollama,它只是 llama.cpp 的一个封装,干的就是设置环境变量、蹩脚地计算显存拆分和卸载。 当你试图用 llama.cpp 让 LLMs 彼此对话时,引擎会把这些 GPU 拖慢,让它们一个接一个地排队等待。 / [2] llama.cpp: https://github.com/ggerganov/llama.cpp [3] 并不支持、也大概率永远不会支持张量并行(Tensor Parallelism)
在这篇文章中,我们将介绍如何使用Python中的llama.cpp库在高性能的cpu上运行llm。 大型语言模型(llm)正变得越来越流行,但是它们的运行在计算上是非常消耗资源的。 这要归功于他的llama.cpp库,该库为各种llm提供了高速推理。 原始的llama.cpp库侧重于在shell中本地运行模型。 而最近LangChain的发展使得我可以可以在python中使用llama.cpp。 在这篇文章中,我们将介绍如何在Python中使用llama-cpp-python包使用llama.cpp库。 总结 在这篇文章中,我们介绍了如何在Python中使用llama.cpp库和llama-cpp-python包。这些工具支持基于cpu的llm高性能执行。 Llama.cpp几乎每天都在更新。 在Llama.cpp有一个“convert.py”可以帮你将自己的Pytorch模型转换为ggml格式。
Build llama.cpp locally To get the Code: git clone https://github.com/ggerganov/llama.cpp cd llama.cpp CPU Build Build llama.cpp using CMake: cmake -B build cmake --build build --config Release Notes: For For Intel GPU support, please refer to llama.cpp for SYCL. For detailed info, please refer to llama.cpp for SYCL. This allows you to use the same llama.cpp binary on different machines with different GPUs.
有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。 llama.cpp 至今在 GitHub 上已经收获了 3.8 万个 Star,几乎和 LLaMa 模型本身一样多。 以至于到了 6 月份,llama.cpp 的作者 Georgi Gerganov 干脆开始创业,宣布创立一家新公司 ggml.ai,旨在用纯 C 语言框架降低大模型运行成本。 这为我们提供了一个方便的类 GPT 模型参数数量方程: 在这里,我们将重点讨论在本地运行类 ChatGPT 服务的情况,这就是 llama.cpp 所做的事情,让我们假设 batch size 为 1 由于 llama.cpp 使用目前深度学习推理中较为激进的 int4 格式,因此 KV 缓存的 RAM 需求减少到 1.33GB,模型参数的 VRAM 减少到 16.25GB。
A Unified Evaluation of llama.cpp Quantization on Llama-3.1-8B-Instruct》了解下为什么本地能跑起来模型。 它研究的不是 Gemma 4,也不是某个全新的模型架构,而是本地推理里特别常见的一件事:llama.cpp 量化。 图注:这篇论文研究的是 llama.cpp 中常见的 GGUF 量化格式,比较它们在模型大小、压缩率、CPU 推理吞吐、perplexity 和下游任务表现上的差异。 图注:论文中的表 1 列出了 llama.cpp 常见 GGUF 量化格式。Q3、Q4、Q5、Q6、Q8 不只是数字大小差异,不同格式对应不同的压缩和质量取舍。 论文作者选择 Llama-3.1-8B-Instruct 作为测试对象,围绕 llama.cpp 的 GGUF 量化格式,做了一次统一评估。
Georgi Gerganov 今年 3 月 Georgi Gerganov 又构建了开源项目 llama.cpp,llama.cpp 让开发者在没有 GPU 的条件下也能运行 Meta 的 LLaMA llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。项目发布后,很快就有开发者尝试并成功在 MacBook 和树莓派上运行 LLaMA。 llama.cpp 和 whisper.cpp 都使用了 ggml,我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。
llama.cpp:AI界的轻量级冠军llama.cpp,这个名字听起来可能有点奇怪,但它在AI界可是个响当当的角色。 llama.cpp说“没问题!”在生产应用中部署LLM,最大的挑战就是它们太“吃资源”了,需要大量的内存和计算资源。但是,llama.cpp可不怕这个。 NVIDIA RTX上的llama.cpp:速度与激情的碰撞NVIDIA已与llama.cpp社区合作,改进和优化其在RTX GPU上的性能。 要使用CUDA后端构建带有NVIDIA GPU优化的llama.cpp库,请访问GitHub上的llama.cpp/docs。 基于llama.cpp的开发者生态系统基于llama.cpp构建了一个庞大的开发者框架和抽象层生态系统,使开发者能够进一步加速他们的应用程序开发过程。
大家好,我是 Ai 学习的老章 # 为何要本地部署大模型 # Linux 安装 Docker 完整教程 # 不要再用 Ollama,不要再用 llama.cpp # 内网部署 llama.cpp,运行量化大模型 我个人是 vLLM 的忠实用户,但是最近在部署某个 Reranker 模型时下游对接出现了一些问题,用 xinference(一个性能强大且功能全面的分布式推理框架,它直接支持了 vllm、sglang、llama.cpp
高效GPU加速:DeepSeek-R1系列模型在llama.cpp上的生产级部署指南充分发挥RTX30/40系列显卡性能,实现推理质量与吞吐量的最佳平衡本文聚焦于GPU加速场景,提供一套经过生产验证的llama.cpp 虽然llama.cpp以CPU推理著称,但在以下场景中,GPU加速能带来显著收益:降低延迟:RTX4090上8B模型推理速度可达CPU的3–5倍;提升吞吐:支持更高并发请求;释放CPU:将计算密集型任务卸载到 推荐选择展开代码语言:YAMLAI代码解释image:ghcr.io/ggml-org/llama.cpp:server-cuda12-b7751基于CUDA12.1,兼容驱动≥525.85;包含完整CUDA 完整启动配置(DockerCompose示例)展开代码语言:YAMLAI代码解释services:llamacpp:image:ghcr.io/ggml-org/llama.cpp:server-cuda12 3.基础高可用设计(1)健康检查llama.cpp提供/health端点,返回200表示就绪,503表示加载中或异常。Docker/K8s可据此判断实例状态。
llama.cpp server在 2025年12月11日发布的版本中正式引入了 router mode(路由模式),如果你习惯了 Ollama 那种处理多模型的方式,那这次 llama.cpp 的更新基本就是对标这个功能去的 路由模式的核心机制 简单来说,router mode 就是一个内嵌在 llama.cpp 里的模型管理器。 以前跑 server,启动时需要指定一个模型,服务就跟这个模型绑定了。要想换模型? 启动配置与自动发现 启用方式很简单,启动 server 时不要指定具体模型即可: llama-server 服务启动后会自动扫描默认缓存路径(LLAMA_CACHE 或 ~/.cache/llama.cpp 总结 Router mode 看似只是加了个多模型支持,实则是把 llama.cpp 从一个单纯的“推理工具”升级成了一个更成熟的“推理服务框架”。
大家好,我是 Ai 学习的老章 继续介绍大模型推理引擎+Llama.cpp,前文我写了# 内网部署 llama.cpp,运行量化大模型,详细介绍了 llama.cpp 这个推理引擎,内网离线 cmake 编译安装、开启 GPU 加速、Llama.cpp 的使用及核心参数深度解析等。 本文我们用个更省事儿的内网离线部署方式——Docker,然后用其部署量化大模型,其中踩坑若干,才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存 选择镜像最好是官方,比如 llama.cpp 提供的有不同版本,不同用途的镜像 我选择的是 ghcr.io/ggml-org/llama.cpp:server-cuda https://github.com/ggml-org/llama.cpp/ /dir 再传入内网: llama.cpp 服务需要模型文件才能运行,在你的 Linux 服务器上创建一个目录,用来存放 GGUF 格式的模型文件。
1.2.Llama.cpp指南1.2.1llama.cpp安装在Github可获取最新的llama.cpp。你也可以按照下面的构建说明操作。 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.6\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.7\--top-p0.8\ /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95
llama.cpp 安装 安装真是一言难尽,大家各显神通吧 我的内网机基础环境很差,编译从来没有成功过 所以还是走的 Docker 方案 docker pull ghcr.io/ggml-org/llama.cpp nvidia --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp 只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。但在多 GPU 配置下,需要经过优化的批推理与 Tensor Parallelism,此时 vLLM 是正确选择。 附 LocalLLaMA 社区的吐槽 llama.cpp 项目 issue 吐槽 14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,# Stop Wasting Your Multi-GPU Setup With llama.cpp
本地部署 llama.cpp 是目前跑 GGUF 模型最成熟的方案。 Qwen3.5 本身就是混合架构(Gated Delta Networks + MoE),llama.cpp 已经做了支持。 1. # 编译(有 GPU 用 -DGGML_CUDA=ON,Mac 用 -DGGML_METAL=ON,纯 CPU 用 -DGGML_CUDA=OFF) cmake llama.cpp -B llama.cpp 场景 推荐方案 硬件要求 Mac 用户尝鲜 llama.cpp + GGUF(2-bit 或 3-bit) 128-192GB 统一内存 Mac 高配用户 llama.cpp + MXFP4 256GB 纯 CPU llama.cpp(去掉 GPU 参数) 256GB+ RAM,速度较慢 最后 能在 MacBook 上跑一个和 GPT-5.2 正面对抗的模型,放在两年前简直不敢想。
可在 macOS 和 Windows 上使用 Ollama 的新动作:大模型联网搜索 API、MCP 客户端集成 Ollama 可以启动云端大模型了,免费 Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。 现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。 官方介绍,优势如下: 完全免费、开源且由社区驱动 在所有硬件上表现出色 高级上下文和前缀缓存 并行和远程用户支持 极其轻量级且内存高效 充满活力且富有创造力的社区 100% 隐私 使用之前需要先安装 llama.cpp server 我还是喜欢命令行直接安装 ## Winget (Windows) winget install llama.cpp ## Homebrew (Mac and Linux) brew
二是跨平台通用的llama.cpp。 在早期版本中,llama.cpp主要负责非苹果生态(Windows/Linux)以及NVIDIA显卡的推理加速,同时也作为CPU推理的兜底方案。 本次更新所呈现的“improved compatibility”,本质上是指Ollama与llama.cpp的上游最新成果完成了深度对齐。 可以将其理解为:Ollama现在能够更智能地评估当前Mac硬件的GPU内存压力,并将一部分兼容性要求较高的算子交由llama.cpp后端进行联合处理,或者通过llama.cpp中针对Metal Shading 在Ollama的架构中,NVIDIA显卡的推理加速依赖llama.cpp的CUDA后端。
直接使用 ggerganov/ggml[8] 会比较麻烦,不过 ggerganov/llama.cpp[9] 做了完善的封装,所以我们可以从 llama.cpp 这个项目入手。 FROM python:3.11.4-slim-bullseye as base COPY --from=code /app/llama.cpp /app/llama.cpp WORKDIR /app / /app/llama.cpp/ WORKDIR /app/llama.cpp/ 在上面的 Dockerfile 中,我们做了几件事: •将 llama.cpp 将最近发布的代码,存储到一个共享的镜像中 •使用 Python 官方镜像[11],安装开发依赖,接着构建 llama.cpp 项目的二进制文件,用于后续转换模型和调用模型。 : https://github.com/ggerganov/llama.cpp [10] soulteary/docker-llama2-chat/llama.cpp/Dockerfile.converter
本文还将 PowerInfer 与 llama.cpp 进行了比较,llama.cpp 是最先进的本地 LLM 推理框架。为了便于进行比较,该研究还扩展了 llama.cpp 以支持 OPT 模型。 该研究首先比较了 PowerInfer 和 llama.cpp 的端到端推理性能,批大小为 1。 平均而言,PowerInfer 实现了 8.32 tokens/s 的生成速度,最高可达 16.06 tokens/s, 显着优于 llama.cpp,比 llama.cpp 提高了 7.23 倍,比 在此阶段,CPU 和 GPU 上都会激活少量神经元,与 llama.cpp 相比,减少了不必要的计算。 图 12 显示了 PowerInfer 和 llama.cpp 的 CPU 和 GPU 之间的神经元负载分布。
前言 Ollama v0.30.2于2026年6月3日正式上线,本次版本累计提交15次代码变更,修改38个代码文件,包含安全漏洞修复、llama.cpp内核版本升级、全新Laguna大模型架构兼容、多款主流代码类 本文按照第三方集成优化、Web&Markdown安全加固、llama-server服务优化、llama.cpp内核与Laguna新架构适配、Codex全链路配置隔离改造、硬件兼容与Opencode限制修复 四、llama.cpp版本升级+Laguna(Poolside)全新大模型架构原生适配 版本将内置llama.cpp依赖版本从b9452升级至b9479,通过补丁形式在Ollama内部兼容Laguna专属模型架构 4.1 llama.cpp版本号全局替换 修改项目版本配置文件LLAMA_CPP_VERSION,将原有b9452修改为b9479,全项目编译时自动拉取对应commit的llama.cpp源码,同步适配新版底层算子逻辑 4.3 补丁编译异常修复 首次提交Laguna补丁后出现构建断裂,后续提交修复补丁编译BUG,完善cmake补丁异常捕获逻辑,规避llama.cpp版本变动导致补丁无法应用的问题。